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摘要 随 着 互联 网 技术 的 迅猛 发 展 ， 高 性 能 计算 的 主要 应 用 从 传统 的 科学 与 工程 计算 为 主 逐 步 演变 为 以 数据 
处 理 为 核心 ， 这 给 传统 高 性 能 计算 机 体系 结构 带 来 巨大 挑战 的 同时 ， 也 使 高 通 量 计算 应 运 而 生 。 文 章 从 应 用 


特征 出 发 冰 述 了 高 通 量 计算 与 传统 高 性 能 计算 的 差别 ， 


并 探讨 了 高 通 


量 计算 的 基础 理论 、 关 键 技术 ， 以 及 中 


国 科学 院 在 高 通 量 计 算 核心 芯片 及 系统 领域 的 研究 成 果 ; 以 期 通过 高 通 量 计算 机 关键 技术 的 研究 与 突破 ， 为 
物 互联 时 代 的 新 型 高 性 能 计算 平台 作出 贡 


缓解 我 国 核心 芯片 “ 卡 脖 子 ”的 问题 ， 以 及 为 构建 物 


天 键 词 ”高 性 能 计算 ， 高 通 量 计算 ， 数 据 中心 ， 系 统 炳 
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近年 来 ， 随 着 互联 网 技术 的 迅猛 发 展 ， 互 联网 
每 天 产生 的 数据 量 呈 爆炸 式 增长 。 以 几 个 典型 公司 
HA: 淘宝 网 每 天 交易 达 数 干 万 笔 ， 其 单 日 数据 产 
生 量 超过 50 TB; 百度 每 天 大 约 要 处 理 200 亿 次 搜 
索 请 求 ， 处 理 数据 量 达 数 百 PB; 腾讯 网 日 覆盖 人 
数 超过 1.5 亿 ， 腾 讯 视 频 月 总 播放 量 达 800 亿 次 ; 
Facebook 注册 用 户 超过 20 亿 ， 每 月 上 传 的 照片 达 数 百 
亿 张 。 根 据 国际 数据 公司 (IDC ) 预测 ， 到 2025 年 ， 
全 球 需要 管理 的 数据 量 将 超过 160 ZB。 如 何 有 效 对 这 
些 数据 进行 加 工 将 成 为 一 大 难题 。 

在 这 种 背景 下 ， 高 性 能 计算 的 主流 应 用 也 从 传统 
的 以 科学 与 工程 计算 为 主 ， 逐 步 演 变 成 以 数据 处 理 为 
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核心 。 然 而 ， 由 于 网 络 应 用 及 软件 技术 的 不 同 ， 需 要 
处 理 的 数据 格式 和 产生 速度 也 各 不 相同 。 更 其 的 是 ， 
诸如 微 博 、 团 购 、“ 秒 杀 ” 等 网 络 应 用 的 出 现 ， 给 大 
规模 数据 的 实时 处 理 及 QoS (服务 质量 ) 提出 了 更 高 


的 要 求 。 因 此 ， 互 联网 技术 的 普及 应 用 带 来 的 种 种 新 
特性 给 当前 的 高 性 能 处 理 器 芯片 和 计算 机 系统 带 来 了 


巨大 的 挑战 。 


我 们 都 知道 


， 芯 片 和 系统 是 信息 产业 发 展 和 安全 


的 根基 ， 尽 管 我 国 的 信息 服务 行业 发 展 繁 菜 ， 但 支撑 
我 国信 息 行业 的 核心 设施 却 严重 受制 于 人 ， 特 别 是 关 
键 芯 片 和 核心 系统 等 方面 依然 面临 “ 卡 脖子 ”的 相关 
问题 。 当 前 国内 数据 中 心 的 中 央 处 理 融 (CPU ) 芯片 
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市 场 几 乎 被 美国 的 Intel 和 AMD 两 家 公司 全 部 瓜分 ， 
而 加 速 器 芯片 则 主要 由 美国 的 NVIDIA 公司 垄断 。 核 
心 技术 的 缺失 ， 使 得 我 国 整个 信息 产业 面临 着 严重 的 
产业 安全 问题 ， 尤 其 是 当前 中 美 经 贸 摩擦 愈演愈烈 ， 
唯 有 科技 自主 方 可 不 受制 于 人 。 

中 国 科学 院 计 算 技术 研究 所 早 在 10 年 前 就 前 瞻 性 
地 启动 了 高 通 量 计算 机 的 研究 工作 。 经 过 多 年 的 科研 
积累 ， 目 前 已 经 在 核心 芯片 、 计 算 机 系统 等 方面 形成 
了 诸多 创新 成 果 ， 并 已 开始 逐步 投入 产业 应 用 。 


1 什么 是 高 通 量 计算 机 

高 性 能 计算 在 传统 的 科学 与 工程 计算 类 应 用 中 的 
寺 点 包括 : 任务 单一 ， 负 载 变化 不 频繁 ， 单 个 任务 计 
算 量 大 ， 以 及 计算 局 部 性 好 。 而 高 通 量 计算 在 数据 中 
心 的 应 用 则 主要 面向 互联 网 、 物 联网 等 新 兴 场 景 ， 其 
寺 点 是 : 任务 多 样 ， 单 个 任务 往往 具有 流 式 计算 特 
征 ; 计算 量 相对 不 大 ,但 任务 的 并 发 数量 及 数据 规模 
巨大 ; 以 及 处 理 要 求 具有 实时 性 。 

传统 高 性 能 计算 机 的 研制 目标 是 提高 速度 ， 即 缩 
短 单个 并 行 计算 任务 的 运行 时 间 ; 而 数据 中 心 类 应 用 
系统 的 目标 是 高 通 量 ， 即 提高 单位 时 间 内 任务 或 数据 
处 理 的 吞吐 量 。 这 种 以 “算得 多 ”为 性 能 指标 的 高 性 
能 计算 机 被 称 为 高 通 量 计算 机 。 如 果 给 高 通 量 计算 机 
一 个 定义 ,那么 可 以 这 么 描述 : 高 通 量 计算 机 是 适用 
于 互联 网 大 数据 等 新 兴 应 用 负载 特征 的 、 在 强 时 间 约 
束 下 能 够 全 局 可 控 地 处 理 高 并 发 请 求 的 新 型 高 性 能 计 
算 机 。 其 核心 特点 是 对 并 发 性 、 实 时 性 和 确定 性 的 保 
障 。 

高 通 量 计 算 机 和 传统 的 高 性 能 计算 机 在 目标 应 
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用 、 计 算 特征 和 设计 目标 等 方面 都 存在 明确 的 区 别 
( 表 1)。 然 而， 由 于 高 性 能 计算 由 来 已 入 ,目前 主 
流 的 通用 计算 机 和 高 端 计算 系统 的 发 展 都 深 受 其 影 
响 ， 这 也 使 得 当前 数据 中 心 主流 的 计算 系统 在 针对 网 
络 服务 这 种 高 并 发 、 强 实时 的 高 通 量 应 用 时 表现 出 诸 
多 不 足 。 为 了 进一步 理解 高 通 量 应 用 对 计算 机 体系 结 
构 的 需求 ， 我 们 基于 当前 主流 的 高 性 能 服务 器 〈 采 用 
Intel Xeon CPU ) 对 典型 高 通 量 应 用 进行 了 测试 ， 并 且 
发 现 了 以 下 一 些 问题 。 

(1) 缓存 资源 浪费 。CPU 上 的 共享 缓存 
(cache) 缺失 率 很 高 ， 这 说 明 高 通 量 应 用 与 传统 高 
性 能 计算 应 用 的 数据 访问 特征 有 明显 区 别 ， 传 统 的 多 
级 缓存 设计 并 不 适合 。 从 面积 和 功 耗 的 角度 来 衡量 的 
话 ， 共 享 缓存 作用 不 大 ， 但 却 占用 了 大 量 的 片上 面积 
CE Intel 的 主流 服务 器 芯片 中 ， 片 上 存储 所 占 面 积 通 
常 高 达 30% 以 上 ) ， 产 生 了 大 量 的 功 耗 。 

(2) 内 存 带 宽 利 用 率 低 。CPU TE 7096 以 上 使 用 
率 时 的 压力 测试 下 ， 内 存 带宽 的 有 效 使 用 率 通 常 也 不 
到 10%。 这 说 明 ， 在 高 通 量 应 用 负载 下 ， 传 统计 算 机 
体系 结构 设计 下 的 内 存 带 宽 并 没有 得 到 有 效 利用 。 

(3) 服务 质量 难以 保障 。 当 增加 任务 的 并 发 负 
载 ， 使 得 CPU 利用 率 维持 在 较 高 水 平时 ， 我 们 发 现 
应 用 的 完成 时 间 迅 速 拉 长 ， 也 即 系统 的 尾 延 迟 明显 增 
大 ， 从 而 导致 延迟 敏感 应 用 大 量 失效 。 因 此 ， 在 传统 
服务 器 系统 上 ， 要 想 获 得 好 的 用 户 体验 ， 必 须 把 硬件 
利用 率 维持 在 较 低 水 平 。 
通过 上 述 实验 结果 我 们 可 以 看 到 ， 现 有 的 高 性 能 
计算 机 系统 的 设计 并 不 能 很 好 地 满足 高 通 量 应 用 的 新 
特性 。 因 此 ， 需 要 开展 新 型 的 高 通 量 计算 体系 结构 的 


A1 高通 量 计算 机 与 传统 高 性 能 计算 机 对 比 


标 应 用 计算 特征 设计 目标 
传统 高 性 能 计算 机 科学 与 工程 计算 应 用 任务 单一 ， 负 载 变化 不 频繁 ， 计 算 量 大 ， 计 算 局 部 性 好 高 速度 (算得 快 ) 
高 通 量 计算 机 互联 网 数据 中 心 应 用 任务 多 样 ， 流 式 计算 特征 ， 数 据 量 大 ， 实 时 性 要 求 高 高 通 量 (算得 多 ) 


Q 4 £105 semi o49 
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2 高 通 量 计算 基础 理论 
与 传统 高 性 能 计算 以 高 速度 为 设计 目标 相 比 ， 高 
通 量 计算 的 核心 是 追求 高 通 量 ， 即 算得 多 。 具 体 包 
括 3 个 核心 要 素 ， 即 高 否 吐 、 高 利用 率 、 低 延迟 。 
(1) 高 吞吐 。 是 指 单位 时 间 完 成 的 任务 数 或 者 
响应 的 请 求 数 要 多 。 对 于 互联 网 应 用 场景 来 说 ， 数 据 
中 心 的 一 个 核心 挑战 是 要 实时 响应 海量 的 并 发 用 户 请 
求 。 以 2018 年 天 猫 “ 双 11” 全 球 狂欢 节 为 例 ， 其 实时 
数据 处 理 峰 值 超过 6 亿 条 / 秒 ， 支 付 成 功 峰 值 超过 30 万 
笔 / 秒 ， 数 据 中 心 必须 充分 挖掘 各 种 并 行 性 以 应 对 如 此 
巨大 的 实时 并 发 处 理 需 求 。 
(2) 高 利用 率 。 是 指 计算 机 系统 中 的 核心 部 件 
(如 CPU、 存 储 器 、 网 络 等 ) 的 利用 率 要 高 。 当 前 大 
型 数据 中 心 通常 包括 数 十 万 台 甚 至 百 万 台 服 务 器 ， 建 
设 资金 则 高 达 数 十 亿 甚至 百 亿 美元 。 然 而 ， 为 了 确保 
用 户 的 服务 质量 ， 现 有 数据 中 心 不 得 不 将 利用 率 控制 
在 较 低 水 平 ， 因 此 整体 利用 率 情况 很 不 理想 。 公 开 数 
据 显示 ，2013 年 谷歌 数据 中 心 的 平均 CPU 利用 率 只 有 
30% 趾 ， 而 其 他 互联 网 公司 运营 的 数据 中 心 的 利用 率 其 
至 比 该 值 还 要 低 。 可 见 在 现 有 的 架构 下 ， 要 做 到 既 能 
实时 满足 用 户 处 理 需 求 ， 同 时 又 能 达到 高 的 利用 率 ， 
是 非常 困难 的 。 
(3) 低 延 迟 。 指 用 户 请 求 的 响应 时 间 要 短 。 互 联 
网 上 的 大 部 分 在 线 服务 具有 明显 的 实时 交互 特征 ， 数 
据 中 心 必须 确保 在 给 定 的 实时 性 约束 条 件 满足 的 情况 
下 返回 结果 ， 否 则 会 导致 服务 的 失效 。 比 如 一 些 图 像 
识别 或 者 语音 翻译 之 类 的 人 工 智 能 (AI ) 应 用 场景 ， 
通常 要 求 响应 时 间 在 毫秒 级 别 ， 这 对 于 当前 的 计算 机 
系统 来 讲 是 一 个 巨大 挑战 。 
针对 上 述 高 乔 吐 、 高 利用 率 、 低 延迟 的 设计 需 
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资源 利用 率 和 吞吐 量 3 个 因素 影响 。 简 单 来 讲 ， 系 统 
焙 与 延迟 的 波动 幅度 成 正比 ， 与 资源 利用 率 以 及 系统 
吞吐 量 成 反比 。 因 此 ， 延 迟 波 动 越 大 ， 系 统 粹 越 大 ; 
资源 利用 率 越 高 、 吞 叶 量 越 大 ， 则 系统 粹 越 小 。 类 似 
T AIZA WAE, RIDE RAR” A 
映 计 算 机 系统 中 的 易 扰 动 程度 或 者 不 确定 性 。 

“ 炉 者 ， 伤 也 。” 高 炉 系 统 往往 开销 大 、 成 本 
HEFTAR, IRER RHA EH a N 
能 达到 更 高 的 效率 、 更 低 的 成 本 ， 也 更 受用 户 青 
睐 。 曾 有 人 问 美国 能 源 部 副 部 长 斯 蒂 文 ET (Steven 
为 什么 电能 如 此 受到 人 们 的 喜爱 ”他 回答 
道 ， 因 为 电力 是 一 种 低 粹 能 源 。 前 文 提 到 ， 为 了 确保 
用 户 服务 质量 ， 现 有 的 数据 中 心 的 CPU 平均 利用 率 
很 低 ， 一 旦 利用 率 提高 ， 其 负载 性 能 的 波动 幅度 将 迅 
XE. Dist, JB ruo TE TERR BETA Je e TE AR 
AE. MENE EHE ELI BLU BNE ERRA , 
也 即 降低 系统 的 不 确定 性 ; 以 及 通过 高 通 量 计 算 机 实 
现 提高 系统 利用 率 和 任务 吞吐 量 的 同时 ， 避 免 应 用 的 
性 能 波动 。 


zy 


i 


Koonin ) , 


3 高 通 量 计算 关键 技术 


针对 高 通 量 计算 高 咎 吐 、 高 利用 率 、 低 延迟 的 需 
求 ， 我 们 需要 把 当前 计算 机 体系 结构 的 设计 从 “速度 
导向 ”转向 “ 通 量 导 向 ”， 从 而 确保 计算 机 系统 在 满 
足 高 吞吐 、 低 延迟 的 同时 还 能 达到 高 利用 率 。 针 对 上 
述 目 标 ， 中 国 科 学 院 计算 技术 研究 所 在 高 通 量 计 算 机 
研制 过 程 中 提出 了 一 系列 关键 技术 ， 包 括 高 通 量 众 
核 体系 结构 、 高 通 量 片 上 数据 通路 、 标 签 化 体系 结构 
等 。 

3.1 高 通 量 众 核 体 系 结构 

针对 高 通 量 应 用 中 的 海量 并 发 处 理 需 求 ， 我 们 提 

出 了 Godson-T 众 核 处 理 器 体系 结构 中， 以 实现 任务 的 


求 ， 我 们 提出 一 个 基于 “系统 烂 ” 的 通 量 分析 模 
型 站。 系统 粹 主要 受 延 迟 的 不 确定 性 ( 波动 情况 ) 
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高 吞吐 。 相 比 于 传统 多 核 处 理 器 ，Godson-T 采 用 众 核 
架构 提供 丰富 的 并 发 处 理 能 力 ， 并 在 片上 网 络 、 片 上 
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存储 、 同 步 模型 和 通信 机 制 等 方面 采用 创新 性 的 设计 
方法 ， 以 实现 任务 的 高 春 吐 和 低 延 迟 。 

(D 易 扩 展 片 上 网 络 。Godson-T 采 用 易 扩展 的 
二 维 网 格 片上 网 络 ， 同 时 支持 拥塞 感知 和 能 耗 感知 的 
动态 路 由 算法 以 实现 高 并 发 场景 下 的 片上 网 络 负载 均 
衡 ， 进 而 确保 网 络 通信 的 低 延 迟 。 

(2) 细 粒 度 可 配置 片上 存储 。Godson-T 的 片上 
存储 支持 细 粒 度 可 配置 ， 从 而 更 好 地 适 配 高 通 量 场景 
下 复杂 的 数据 访问 模式 ， 降 低 延迟 。 

(3) 快速 同步 机 制 。 我 们 设计 了 片上 同步 管理 
结构 ， 支 持 基 于 数据 流 的 核 间 细 粒 度 快速 同步 ， 相 比 
传统 的 基于 内 存 的 同步 机 制 ， 性 能 可 获得 数量 级 的 提 
Jis 

(4) 可 编程 数据 通信 机 制 。Godson-T 提出 了 可 
编程 数据 传输 引擎 结构 ， 可 以 快速 实现 数据 的 水 平 
(片上 处 理 器 核 之 间 ) 和 垂直 ( 从 内 存 到 片上 存储 ) 
搬运 ， 实 现 了 数据 通信 的 低 延 迟 。 

Godson-T 众 核 处 理 器 结构 受到 国际 同行 的 广泛 关 
注 ，2011 年 ， 处 理 器 领域 的 知名 期 刊 《 微 处 理 器 报 
告 》 (Microprocessor Report) 对 Godson-T 的 研究 成 果 
进行 了 专门 文章 报道 ， 并 将 其 选 入 2011 年 全 球 十 大 服 
务 器 处 理 需 之 一 。 

3.2 高 通 量 片上 数据 通路 

“ 通 量 导 向 ”的 处 理 需 数据 通路 设计 也 是 确保 
“高 乔 吐 、 低 延迟 ”的 关键 ， 我 们 借鉴 城市 交通 管理 
的 思路 开展 设计 。 高 通 量 计算 在 结构 特征 、 资 源 管 
理 、 调 度 策略 等 方面 都 非常 类 似 于 城市 交通 管理 ， 两 
者 的 核心 特征 都 是 高 通 量 ， 即 在 单位 时 间 内 完成 尽 可 
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能 多 的 处 理 请 求 ， 并 保证 QoS， 表 2 给 出 了 两 者 的 类 
比 情况 。 

针对 应 用 的 新 特点 ， 高 通 量 数据 通路 重点 在 最 基 
本 的 数据 读 取 、 数 据 传输 ( 访 存 通路 ) 和 数据 处 理 3 个 
环节 进行 了 创新 ”。 

(1) 数据 读 取 环 节 。 针 对 应 用 中 的 大 量 细 粒 度 
访 存 需求 ， 设 计 了 基于 硬件 的 访 存 请 求 收集 表 ， 通 过 
对 大 量 细 粒度 访 存 的 收集 并 批量 处 理 ， 同 时 通过 时 间 
敏感 的 收集 窗口 控制 机 制 ， 避 免 长 延迟 导致 的 任务 失 
效 。 


(2) 数据 传输 环节 。 针 对 大 量 细 粒度 访 存 的 需 
求 ， 提 出 了 高 密度 路 网 的 设计 ， 从 而 提高 片上 网 络 
的 利用 率 和 吞吐 量 。 文 持 动 态 通 路 调整 ， 能 根据 数据 
传输 的 压力 ， 动 态 调整 传输 通路 配置 ， 提 高 通路 利用 
率 。 此 外 ,通过 直 连 快速 网 络 保障 关键 数据 通路 的 低 
延迟 。 

(3) 数据 处 理 环节 。 提 出 了 硬件 支持 的 全 局 实时 
任务 调度 机 制 ， 将 任务 按照 优先 级 及 剩余 裕 度 时 间 进 
行 调度 ， 有 效 保障 任务 的 QoS; 同时 避免 对 时 间 裕 度 
不 足 的 失效 任务 进行 调度 ， 从 而 确保 硬件 资源 的 合理 
利用 。 

3.3 标签 化 体系 结构 

为 了 在 高 看 吐 、 低 延迟 的 同时 还 能 实现 高 利用 率 ， 
我 们 提出 了 标签 化 汉 诺 依 曼 体 系 结构 (Labeled von 
Neumann Architecture, LvNA; 图 1) 7, LvNA RISE 
要 思想 ， 是 在 经 典 汉 : 诺 依 曼 体系 结构 之 上 增加 一 套 
基于 标签 机 制 的 可 编程 接口 ， 使 得 总 线 与 共享 硬件 部 
件 支持 “DIP” 能 力 ， 即 DD 一 区 分 (Distinguishing ) 、 


X2 ”高通 量 数据 通路 与 城市 交通 结构 类 比 


共性 特 f 结构 对 比 

高 通 量 mes HE E 
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城市 交 juu) 定制 公交 交通 指挥 控制 中 心 立交 桥 潮汐 车 道 高 密度 路 网 
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I 一 隔离 〈Isolation ) 、P 一 优先 化 ( Prioritizing ) ， 从 
而 降低 计算 机 系统 内 部 因 资 源 竞 争 造成 的 干扰 。 

(1) D 属 性 标签 机 制 。 存 LvNA 中 ， 标 签 将 依附 
于 所 有 的 数据 访问 请 求 中 ， 用 于 标识 该 请 求 来 源 于 哪 
一 个 应 用 (或 应 用 类 别 ) ， 并 随 着 数据 访问 请 求 一 同 
在 整个 计算 机 系统 中 传播 。 这 样 ， 总 线 和 共享 硬件 部 
件 就 可 以 通过 检查 数据 访问 请 求 的 标签 来 对 不 同 应 用 
(或 应 用 类 别 ) 的 请 求 进行 区 分 ， 从 而 支持 区 分 属性 
(D 属 性 ) 。 

(2) I 属性 标签 机 制 。 总 线 和 共享 硬件 部 件 可 以 
在 对 数据 访问 请 求 进行 来 源 区 分 的 基础 上 ， 对 请 求 所 
访问 的 空间 资源 ( 如 缓存 、 内 存 地 址 空间 等 ) 进行 
隔离 ， 减 缓 或 消除 因为 空间 资源 的 共享 冲突 带 来 的 干 
扰 ， 从 而 支持 隔离 属性 (1 属性 ) 。 

(3) P 属 性 标签 机 制 。 总 线 和 共享 硬件 部 件 可 以 
在 对 数据 访问 请 求 进行 来 源 区 分 的 基础 上 ， 对 请 求 所 
使 用 的 性 能 资源 ( 如 队列 、 带 宽 等 ) 进行 优先 化 ， 减 
组 或 消除 因为 性 能 资源 的 共享 冲突 带 来 的 干扰 ， 从 而 
文 持 优先 化 属性 (P 属 性 ) 。 

基于 上 述 标签 机 制 ， 控 制 逻辑 按照 预先 设 定 的 规 


果 。 

LvNA 对 硬件 的 增强 并 不 改动 现 有 指令 的 语义 ， 
因此 对 软件 系统 没有 侵入 性 ， 可 以 做 到 无 须 修改 操作 
系统 和 应 用 程序 。 此 外 ，LvNA 不 依赖 于 处 理 器 流水 
线 结构 的 改动 ， 因 而 可 以 适用 于 任意 处 理 器 。 


4 高 通 量 计算 核心 必 片 、 系 统 及 应 用 


为 了 验证 高 通 量 计 算 机 在 核心 芯片 和 系统 等 方面 
的 核心 技术 ， 中 国 科学 院 计算 技术 研究 所 先后 研制 了 
高 通 量 众 核 处 理 器 一 一 DPU-m、 标 签 化 体系 结构 
“火苗 ”， 以 及 高 通 量 计算 机 系统 “金刚 ”等 ， 
并 开展 实际 应 用 。 
4.1 DPU-m 高 通 量 众 核 处 理 器 

我 们 完成 了 DPU-m 高 通 量 众 核 处 理 需 芯片 
(图 2) 的 设计 和 流 片 ， 世 片 基于 TSMC 40 nm 工艺， 
主要 面向 互联 网 高 通 量 视频 处 理 需 求 。 与 数据 处 理 领 
域 的 主流 芯片 Intel 的 相同 工艺 芯片 相 比 ， 能 效 提升 
达 20 余 倍 。 

目前 ， 基 于 自主 技术 构建 的 高 通 量 处 理 系统 在 国 
内 外 均 已 开展 部 署 。 在 国内 已 经 进入 国家 计算 机 网 络 


则 ， 以 标签 为 依据 对 相应 的 数据 访问 请 求实 施 不 同 
的 性 能 调控 策略 。 这 些 性 能 调控 策略 是 软件 可 编程 
的 ， 并 且 可 以 做 到 比 传 统 操作 系统 的 性 能 调控 更 为 细 
粒度 ， 从 而 对 延迟 敏感 型 应 用 会 有 更 优 的 性 能 调控 效 


n ||I ][ )( ( (cu) 
a— u— GERD GENRE GR: GR 


传统 冯 - 诺 依 曼 结构 
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与 信息 安全 管理 中 心 、 中 国 移动 、 中 国联 通 等 重要 高 
通 量 网 络 数据 监管 与 分 析 领 域 ， 有 效 保障 了 国家 信息 
安全 。 在 国外 也 已 经 累计 部 署 数 千 节点 ， 服 务 于 国家 


“一 带 一 路 ”倡议 。 


软件 定义 的 
-控制 逻辑 
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图 1 标签 化 冯 ' 诺 依 曼 体 系 结构 
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图 2 DPU-m 原型 芯片 及 加 速 卡 


4.2 “火苗 ”标签 化 体系 结构 原型 系统 

“火苗 ”原型 系统 ( 图 3 ) 是 依据 LvNA 实现 
的 FPGA 原型 系统 ， 包 括 8 个 节点 ; 基于 SiFive 公 
司 freechips 项 目的 开源 SoC 实现 Rocketchip ， 并 在 其 
基础 上 加 入 了 标签 化 的 基础 设施 以 及 应 用 标签 的 控制 
平面 。 该 系统 已 整体 达到 国际 先进 水 平 〈 美国 加 州 大 
学 伯克利 分 校 于 2018 年 6 月 发 布 同类 平台 ) ， 标 签 化 
功能 处 于 国际 领先 水 平 。 目 前 ，“ 火 苗 ” 原 型 系统 已 
对 外 开放 ， 被 中 国 科学 院 深圳 先进 技术 研究 院 、 清 华 
大 学 、 北 京 大 学 、 天 津 大 学 、 大 连理 工大 学 、 华 为 海 
思 公 司 、 美 国 Clemson 大 学 等 用 于 前 沿 研究 与 产品 人 研 
发 。 
4.3 “金刚 ”高 通 量 计算 机 

2018 年 10 月 ， 中 国 科 学 院 计 算 技术 人 研究 所 联 
合 北 京 中 科 割 蕊 科技 有 限 公 司 在 中 国 计 算 机 大 会 
(CNCC ) 上 发 布 了 首 台 高 通 量 计算 机 系统 “ 金 
刚 ” (图 4 ) 中， 该 系统 集成 了 该 所 相关 团队 在 高 通 量 
处 理 器 、 高 通 量 系统 、 高 通 量 软件 及 应 用 等 领域 的 一 
系列 创新 技术 ， 以 高 吞吐 、 高 利用 率 、 低 延迟 的 特性 
满足 数据 中 心 基 础 设施 建设 的 新 需求 ， 在 高 并 发 音 视 
频 处 理 、 深 度 学 习 等 典型 应 用 场景 相 比 传统 服务 器 获 
得 数量 级 的 能 效 提升 。 目 前 ， 随 着 高 通 量 计算 机 系统 
的 成 功 研 制 ， 高 通 量 计算 技术 将 逐步 应 用 到 国民 经 济 
主 战 场 ， 贡 献 于 国计民生 。 


4.4 高 通 量 计 算 中 心 建设 

当前 ， 城 市 公共 计算 基础 设施 仍 以 超 算 中 心 和 云 
计算 中 心 为 主 。 超 算 中 心 采 用 的 是 传统 高 性 能 计算 架 
构 ， 其 核心 是 “算得 快 ”; 以 交通 工具 做 类 比 的 话 ， 
对 应 的 是 飞机 ， 其 特点 就 是 速度 快 、 完 成 时 间 短 。 而 
云 计 算 中 心 的 核心 是 面 对 多 样 化 的 计算 需求 实现 “ 算 
得 省 ”， 对 应 交通 工具 中 的 汽车 ， 汽 车 可 以 在 绝 大 
部 分 出 行 场景 中 都 达到 成 本 低 和 利用 率 高 的 目的 。 然 
而 ， 飞 机 和 汽车 都 存在 一 个 明显 的 局 限 性 : 虽然 ,在 
流量 较 低 的 情况 下 ， 两 者 都 能 确保 较 好 的 服务 质量 ; 
但 是 ， 一 旦 交通 负载 快速 上 升 时 ， 就 容易 造成 拥塞 ， 
导致 完成 时 间 急 剧 增长 ， 难 以 保障 服务 质量 。 而 高 通 
量 计算 的 核心 就 是 要 突破 上 述 局 限 性 ， 在 高 负载 的 情 
况 下 实现 “算得 多 ”， 类 似 于 高 铁 。 高 铁 是 目前 交通 
工具 中 ,在 高 负载 、 高 利用 率 前 提 下 依然 能 有 效 保障 
用 户 服务 质量 的 最 佳 方 案 。 

随 着 用 户 出 行 需求 的 多 样 化 ， 交 通 运 输 体系 也 在 
不 断 发 展 完善 。 类 似 地 ， 随 着 应 用 需求 的 不 断 变 化 ， 
未 来 城市 公共 计算 基础 设施 也 需要 不 断 发 展 和 完善 。 
面 对 未 来 千 亿 级 别 端 设备 带 来 的 新 需求 ， 需 要 提供 更 
高 通 量 、 更 高 智能 、 更 高 确定 性 、 更 低 延 迟 和 更 低 功 
耗 的 计算 与 传输 能 力 ， 而 高 通 量 计算 中 心 无 疑 将 扮演 
着 越 来 越 重 要 的 角色 。 

中 国 科 学 院 计 算 技术 研究 所 正在 开展 高 通 量 计算 
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图 3 “火苗 ”原型 系统 图 4 


“人 金刚” 高通 量 计算 机 


中 心 的 建设 ， 按 照 规划 ， 第 一 步 将 先 建设 1 一 2 个 高 通 
量 计 算 的 示范 中 心 ， 然 后 在 全 国 重点 城市 开展 高 通 量 
计算 中 心 建设 ,逐步 实现 高 通 量 计算 技术 与 新 兴 产 
业 的 无 缝 融合 。 目 前， 第 一 个 城市 高 通 量 计算 中 心 已 
经 选 址 江苏 省 盐城 市 并 已 开展 建设 ， 由 中 国 科 学 院 计 
算 技术 研究 所 团队 负责 高 通 量 计算 中 心 的 整体 方案 
计 、 核 心 设备 研制 和 日 常 运营 。 盐 城 高 通 量 计算 中 心 
将 重点 支持 高 通 量 视频 处 理 和 人 工 智 能 加 速 ， 作 为 服 
务 盐城 智能 产业 升级 的 核心 公共 研发 平台 。 


5 总 结 及 建议 


经 过 长 期 的 努力 突破 ,我 国 在 高 性 能 计算 机 研制 
方面 已 经 取得 一 系列 令 人 瞩目 的 成 果 。 然 而 我 们 也 看 
到 ， 不管 是 传统 超 算 中 心 ， 还 是 新 兴 互 联网 数据 中 
已 ， 核 心 世 片 受 制 于 人 的 现象 仍然 非常 严重 。 

为 了 确保 我 国信 息 产 业 的 安全 可 持续 发 展 ， 有 必 
要 以 高 通 量 计 算 等 新 兴 应 用 场景 作为 突破 口 ， 加 强 核 
心 芯 片 和 计算 系统 的 自主 研发 和 产业 应 用 ， 逐步 打 造 
自主 可 控 的 产业 生态 。 为 此 ， 本 文 提出 以 下 建议 。 

(1) 政策 方面 ， 政 府 明 确 以 高 通 量 计算 等 为 代表 
的 新 兴 技 术 的 战略 定位 。 一 方面 ， 加 强 以 芯片 和 系统 
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为 代表 的 核心 技术 专项 设置 和 科研 投入 ; 男 一 方面 ， 
加 大 国家 相关 部 门 在 高 通 量 计算 相关 信息 基础 设施 工 
程 的 布局 和 建设 ,针对 国产 化 自主 核心 技术 在 全 国 挑 
选 重 点 城市 开展 试点 和 验证 。 

(2) 产业 方面 ， 整 合 高 通 量 计算 相关 优势 科研 单 
位 、 高 校 及 企业 ， 推 进 相关 产业 联盟 的 构建 。 推 动 以 

通 量 视 频 处 理 、 人 工 智能 等 为 代表 的 行业 应 用 优先 
导入 产业 生态 。 此 外 ， 针 对 国家 “一 带 一 路 ”倡议 ， 
积极 探索 核心 技术 产品 的 出 口 应 用 ， 扩 大 国际 影响 
rim 
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Abstract With the rapid development of Internet technologies, the main applications of high performance computing (HPC) are 
changing form scientific and engineering applications to those focusing on data processing. This situation poses grave challenges for 
traditional high performance computing architecture, thus high throughput computing (HTC) comes into being. This paper explains the 
difference between HPC and HTC according to the application features, as well as introduces the basic theory and key technologies of 
HTC. We also show the research results of HTC chips and systems. Through the breakthrough of above HTC key technologies, it is 
expected to relieve the bottleneck of core chips, and make due contribution to the China’s new high performance platform in the era of 
intelligent Internet of Things (IoT). 
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